

## \* NOTICES \*

JPO and INPLT are not responsible for any damages caused by the use of this translation.

1. This document has been translated by computer. So the translation may not reflect the original precisely.

2.\*\*\*\* shows the word which can not be translated.

3.In the drawings, any words are not translated.

-

# CLAIMS

# [Claim(s)]

[Claim 1] A program counter and a register required to process a fixed number of program styles simultaneously, It is a multithread computer equipped with the controlling mechanism which performs pipeline control. A means by which this controlling mechanism generates and performs a new thread according to the 1st instruction code which specifies with an operand the start address of the task which can be performed to juxtaposition, the 2nd instruction code which specifies the task termination which can be performed to this juxtaposition -- responding -- this -- the multithread computer possessing a means to extinguish a new thread.

[Claim 2] The multithread computer which is a multithread computer equipped with a program counter and a register required to process a fixed number of program styles simultaneously, and the controlling mechanism which performs pipeline control, and possesses a means generate and perform two or more new threads according to the predetermined instruction code which specifies with an operand this start address of two or more tasks and the number of these tasks with

which this controlling mechanism has the same start address, and which can be performed to juxtaposition.

[Claim 3] Said controlling mechanism is a multithread computer according to claim 1 or 2 which has the thread ID register which stores the unique ID number added to the generated thread, respectively, and possesses further the means which reads the value stored in the thread ID register corresponding to the thread to which this instruction code belongs according to the instruction code which specifies this thread ID register.

[Claim 4] Said controlling mechanism is a multithread computer according to claim 1 or 2 which inhibits generation of the new thread according to instruction code, and possesses further a thread generation suppression means to perform an instruction sequentially according to the situation of a computer.

[Claim 5] Said controlling mechanism is a multithread computer according to claim 1 or 2 which possesses further the number control means of threads which controls the number of the threads by which a concurrency should be carried out among the generated new threads.

[Translation done.]

\* NOTICES \*

JPO and INPLT are not responsible for any

damages caused by the use of this translation.

1. This document has been translated by computer. So the translation may not reflect the original precisely.

2\*\*\*\* shows the word which can not be translated.

3.In the drawings, any words are not translated.

#### DETAILED DESCRIPTION

[Detailed Description of the Invention]

[Field of the Invention] This invention relates to the multithread calculating machine which aimed at improvement in the operation effectiveness of a hardware resource in the detail more about a multithread calculating machine.

# [0002]

[Description of the Prior Art] The multithread method is proposed and realized as a means which raises the activation throughput of a pipeline calculating machine. This is that that a single program style fully uses up the operation resource of the juxtaposition which a pipeline computer offers generally supplies two or more program styles to a pipeline simultaneously paying attention to a difficult point, and aims at reducing the so-called rates of an empty slot substantially.

[0003] On the other hand, the parallelism which exists in a program with a parallelization compiler is extracted, and approach which carries out parallel execution by the multiprocessor is performed from the former. [0004]

[Problem(s) to be Solved by the Invention] By the way, although the thing of the magnitude of the part which can be processed to juxtaposition at once is called the grain size (granularity) about parallelism, if it is going to carry out parallel processing with a small grain size, an overhead can become large and cannot not much raise effectiveness. Conventionally, the multithread computer does not support the parallelism of a big grain size which a program has for the purpose of the parallel processing in a small grain size. The extract of the parallelism according to a parallelization compiler on the other hand

is performed on the level of a big grain size, and it cannot necessarily be said that the hardware resource is fully utilizing on fine level.

[0005] In view of the trouble which mentioned this invention above, the object is in offering the multithread computer which carries out multithread activation of the two or more programs style which was extracted with the parallelization compiler, and in which parallel execution is possible by the single processor aiming at fusion of two techniques mentioned above.

# [00006]

[Means for Solving the Problem] A program counter and a register required to process a fixed number of program styles simultaneously according to the 1st field of this invention in order to attain the above-mentioned object, It is a multithread computer equipped with the controlling mechanism which performs pipeline control. A means by which this controlling mechanism generates and performs a new thread according to the 1st instruction code which specifies with an operand the start address of the task which can be performed to juxtaposition, the 2nd instruction code which specifies the task termination which can be performed to this juxtaposition -- responding -- this -- the multithread computer possessing a means to extinguish a new thread is offered.

[0007] Moreover, a program counter and a register required to process a fixed number of program styles simultaneously according to the 2nd field of this invention, It is a multithread computer equipped with the controlling mechanism which performs pipeline control. The multithread computer possessing a means by which this controlling mechanism generates and performs two or more new threads according to the predetermined instruction code which specifies with an operand this start address of two or more tasks and the number of these tasks which

can be performed to the juxtaposition which has the same start address is offered.

[0008] Moreover, according to this invention, the controlling mechanism has the thread ID register which stores the unique ID number added to the generated thread, respectively, and the means which reads the value stored in the thread ID register corresponding to the thread to which this instruction code belongs according to the instruction code which specifies this thread ID register is provided further.

[0009] Moreover, according to this invention, according to the situation of a computer, the controlling mechanism inhibits generation of the new thread according to instruction code, and possesses further a thread generation suppression means to perform an instruction sequentially. [0010] Moreover, according to this invention, the controlling mechanism possesses further the number control means of threads which controls the number of the threads by which a concurrency should be carried out among the generated new threads.

[00]

[Embodiment of the Invention] Hereafter, the operation gestalt of this invention is explained with reference to an accompanying drawing.

[0012] <a href="mailto:Drawing.1">Drawing.1</a> is a block diagram for explaining actuation of a common multithread calculating machine. For an instruction cache and 14a-14d, as for a pipeline and 18a-18d, in this drawing, a program counter and 16 are [12/a register file and 20] controlling mechanisms, respectively. Two or more program counters and register files exist, and the number is the upper limit of the number of threads which a processor (computer) supports in hardware and in which a concurrency is possible.

[0013] The fetch of each thread under activation is carried out from an instruction cache 12 using the address which the program counter to which it corresponds in 14a-14d shows, and it is supplied to a pipeline

- 16. The register file accessed into an instruction execution is chosen from either of the 18a-18d, and is used. The structure of such a multithread processor is well-known, and is premised on it also for this invention.
- [0014] <u>Drawing 2</u> is drawing showing the example of the program structure extracted by the parallelization compiler. In the example of this drawing, after that, Task A is performed, and control moves to two or more tasks B1 in which parallel execution is possible B4, and the last joins one and serves as Task C at the beginning.
  [0015] In 1 operation gestalt of this invention, it is putting a thread\_fork instruction on the last of the task A of <u>drawing 2</u>, and the framework which carries out multithread activation of a task B1 B4 is offered.
- This thread\_fork instruction has the task initiation address as an operand, as shown in <a href="mailto:drawing.3">drawing.3</a>.

  [0016] If this thread\_fork instruction is executed, the program style which makes a head the specified address will be defined as a new thread and multithread activation will be carried out according to a
- thread, and multithread activation will be carried out according to a well-known activation method. In the example of  $\underline{\text{drawing 3}}$  corresponding to  $\underline{\text{drawing 2}}$ , four thread fork instructions corresponding to a task B1 B4 will be put on the last of Task A by the parallelization compiler.
- [0017] Moreover, the thread\_terminate instruction showing the end of a thread is also prepared, and if this instruction is executed, a thread will disappear according to a well-known method. That is, by the parallelization compiler, as shown in <u>drawing 4</u>, a thread\_terminate instruction will be put on the last of a task B1. It is the same also about task B-2 B4.
- [0018] When the structure of <u>drawing 2</u> is special, there is [\*\*\*\*\*\* ] an example of <u>drawing 5</u>. Although <u>drawing 5</u> is the same as <u>drawing 2</u> as

flow of a program, the program has taken loop structure and the point that a task B1 - B4 are located in the same part in instruction code is special. In 1 operation gestalt of this invention, a multi\_thread\_fork instruction is prepared corresponding to this example. [0019] This multi\_thread\_fork instruction has as an operand a thread starting address and the number of the threads which should be generated. That is, in the case of the example of <a href="mailto:drawing.5">drawing.5</a>, by the parallelization compiler, as shown in <a href="mailto:drawing.6">drawing.5</a>, a multi\_thread\_fork instruction is put on the last of the instruction train of Task A, and the starting address and four threads of a task B1 are specified as the operand. In this way, it becomes possible to carry out multithread activation of the task B1 of <a href="mailto:drawing.5">drawing.5</a> - B4.

[0020] In addition, in <u>drawing 5</u>, Variable I serves as a value of "2", when it is used as an index variable meaning the count of a repeat of a loop formation, for example, it is referred to by the task B1 and it is referred to by the value of "1", and task B-2. That is, when these tasks are performed by juxtaposition, reading appearance of the value which is different even if it is the same variable needs to be carried out, and a certain management is needed. In 1 operation gestalt of this invention, this problem is solved with a thread ID register.

[0021]  $\underline{\text{Drawing 7}}$  shows actuation when this thread ID register is specified as a source operand. In this drawing, for a thread control section and 24a-24d, as for instruction code and 28, a thread ID register and 26 are [ 22 / a decoder and 30 ] selectors, respectively, and these elements are contained in the controlling mechanism 20 of  $\underline{\text{drawing 1}}$ . [0022] Generally the multithread processor has the thread control section 22, and it equips the interior with the register groups 24a-24d which store two or more threads ID under parallel execution. [0023] As shown in  $\underline{\text{drawing 7}}$ , by the signal 40 which a decoder 28

outputs, one register is chosen from the thread ID register groups 24a-24d, reading appearance of the value stored in it is carried out, and it is always outputted as a signal 42. It is possible to obtain the thread ID of the instruction which the decoder 28 has decoded according to this structure as a value of a signal 42.

[0024] A selector 30 chooses from two or more source operand candidates the suitable thing specified by instruction code, and it opts for the selection with the value of a select signal 44. There is a thread ID which is given by the signal 42 as alternative in addition to the usual source operand group 46, and the value chosen from them is outputted as a signal 48.

[0025] If the instruction code 26 which has a thread ID register in a source operand is given, a decoder 28 will interpret it and a value as which a selector 30 chooses a signal 42 will be set up as a select signal 44. By this, ID of the thread to which an instruction belongs can be read as a source operand value.

[0026] Thus, if a thread ID register is specified as an operand of an instruction, since reading appearance of the unique number (thread ID) will be carried out to each thread, a right value can be referred to, if Variable I ( <a href="mailto:drawing.5">drawing.5</a>) is accessed using this as shown in <a href="mailto:drawing.8">drawing.8</a>. In addition, the content of the register rO with which <ro>drawing.8</a> show the content of the thread ID register among <a href="mailto:drawing.8">drawing.8</a>, respectively.

[0027] By the way, although the task which can be performed to juxtaposition was extracted by the compiler in the program of <a href="mailto:drawing 2">drawing 5</a>, originally it is a sequential program, and even if it does not carry out parallel execution, it operates correctly. On the other hand, as for a multithread processor, it is common that the optimal number of concurrency threads changes with situations of operation, and in order

to raise the effectiveness ability of the whole system, it is indispensable [a processor] to carry out supervisory control of the number of threads appropriately.

[0028] In view of this point, the framework controlled that the number of threads which carries out parallel execution should be restricted is offered by this invention. Even if a thread fork instruction is executed, one of them is made not to perform thread generation, when hardware (namely, controlling mechanism 20) judges the advantages and disadvantages of newly carrying out thread generation and judges automatically that loss is large from the operation situation of a processor (computer). As mentioned above, since it operates correctly even if it does not carry out parallel execution of the program itself, even if it performs such control, it is satisfactory.

[0029] Moreover, hardware does not make this judgment automatically but another gives the means which software, such as an operating system, controls, for example, as shown in <a href="mailto:crawing9">crawing9</a>, the thread generation suppression register in which setting out by software is possible should be prepared, and an operating system should control thread generation -- \*\* -- when it judges, the same effectiveness can be acquired by setting this register to ON.

[0030] According to this invention, generally, two or more threads will be generated simultaneously. In the example of <u>drawing 2</u> or <u>drawing 5</u>, the number is four pieces. However, the number of threads from which the greatest effectiveness is acquired changes with concurrencies as mentioned above depending on the operation situation of the property of a program or the whole system. Then, a means to determine whether the concurrency of how many [ in the thread group generated simultaneously ] should be carried out is prepared.

[0031] Drawing 10 is drawing explaining the device in which hardware

determines automatically the number of threads which carries out a concurrency, and controls it according to a situation. For a thread control section and 12 as for the instruction-execution section and 52. in this drawing, an instruction cache and 50 are [ 22 / the monitor section and 54] the number assignment registers of threads. [0032] In an instruction cache 12, two or more instructions of the thread which can be performed exist, and parallel execution of a number of the threads specified with the number assignment register 54 of threads from the inside is chosen and carried out. Carrying out monitoring of the situations (operation resource usage etc.) of the instruction-execution section 50 suitably, the monitor section 52 determines the suitable number of threads, and sets the number of threads as the number assignment register 54 of threads through a signal 56. [0033] Drawing 11 is drawing showing the configuration whose software enabled it to perform setting out of the number assignment register 54 of threads in drawing 10. The signal 58 was being added to that the configuration shown in drawing 11 is indicated to be to drawing 10. When analyses, such as a compiler, show the suitable number of parallel execution threads, it is not based on a hardware function like drawing 10, but the number assignment register 54 of threads is set up through a signal 58 with software.

[0034] In the above, this invention was explained to the detail especially with reference to the gestalt of the desirable operation. The concrete gestalt of this invention is appended to below for an easy understanding of this invention.

[0035] (Additional remark 1) A program counter and a register required to process a fixed number of program styles simultaneously, It is a multithread computer equipped with the controlling mechanism which performs pipeline control. A means by which this controlling mechanism

generates and performs a new thread according to the 1st instruction code which specifies with an operand the start address of the task which can be performed to juxtaposition, the 2nd instruction code which specifies the task termination which can be performed to this juxtaposition -- responding -- this -- the multithread computer possessing a means to extinguish a new thread.

[0036] (Additional remark 2) Multithread computer which is a multithread computer equipped with a program counter and a register required to process a fixed number of program styles simultaneously, and the controlling mechanism which performs pipeline control, and possesses a means generate and perform two or more new threads according to the predetermined instruction code which specifies with an operand this start address of two or more tasks and the number of these tasks with which this controlling mechanism has the same start address, and which can be performed to juxtaposition.

[0037] (Additional remark 3) Said controlling mechanism is a multithread computer given in the additional remark 1 or additional remark 2 which has the thread ID register which stores the unique ID number added to the generated thread, respectively, and possesses further the means which reads the value stored in the thread ID register corresponding to the thread to which this instruction code belongs according to the instruction code which specifies this thread ID register.

[0038] (Additional remark 4) Said controlling mechanism is a multithread computer given in the additional remark 1 or additional remark 2 which inhibits generation of the new thread according to instruction code, and possesses further a thread generation suppression means to perform an instruction sequentially according to the situation of a computer.

[0039] (Additional remark 5) Said thread generation suppression means is a multithread computer given in the additional remark 4 which is what

performs an instruction sequentially as a result of having supervised the situation of a computer automatically.

[0040] (Additional remark 6) Said thread generation suppression means is a multithread computer given in the additional remark 4 which is what performs an instruction sequentially in response to directions of the software which supervises the situation of a computer.

[0041] (Additional remark 7) Said controlling mechanism is a multithread computer given in the additional remark 1 or additional remark 2 which possesses further the number control means of threads which controls the number of the threads by which a concurrency should be carried out among the generated new threads.

[0042] (Additional remark 8) Said number control means of threads is a multithread computer given in the additional remark 7 which is what controls the number of the threads by which a concurrency should be carried out as a result of having supervised the situation of a computer automatically.

[0043] (Additional remark 9) Said number control means of threads is a multithread computer given in the additional remark 7 which is what controls the number of the threads by which a concurrency should be carried out in response to directions of the software which supervises the situation of a computer.

## [0044]

[Effect of the Invention] According to this invention, the multithread computer which carries out multithread activation of the two or more programs style which was extracted with the parallelization compiler, and in which parallel execution is possible by the single processor is offered, and the operation effectiveness of a hardware resource in which pipeline control is performed is made to improve further, as explained above.

[Translation done.]

Searching PAJ 1/1 ページ

# PATENT ABSTRACTS OF JAPAN

(11)Publication number : 2003-167748

(43)Date of publication of application: 13.06.2003

(51)Int.Cl. G06F 9/46 G06F 9/32 G06F 9/38

 (21)Application number : 2001–366320
 (71)Applicant : FUJITSU LTD

 (22)Date of filing :
 30.11.2001
 (72)Inventor : YASUSATO AKIRA

# (54) MULTITHREADED COMPUTER

#### (57)Abstract:

PROBLEM TO BE SOLVED: To provide a multithreaded computer that executes a plurality of parallel executable program streams extracted by a parallel compiler by means of a single processor in a multithreaded manner. SOLUTION: The multithreaded computer comprises program counters and registers necessary for concurrent processing of a constant number of program streams, and a control mechanism for pipeline control. The control mechanism comprises a means for generating and executing a new thread according to a first instruction code designating a start address of a parallel executable task in an operand, and a means for erasing the new thread according to a second instruction code designating an end of the parallel executable task.



#### LEGAL STATUS

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against examiner's decision of rejection]

[Date of extinction of right]

# (19)日本国特許庁 (JP) (12) 公開特許公報 (A)

(11)特許出願公開番号 特開2003-167748 (P2003-167748A)

(43)公開日 平成15年6月13日(2003.6.13)

| (51) Int.Cl.7 | 蘇別記号                        | FΙ                  |                              |           | テーマコート*(参考)  |  |
|---------------|-----------------------------|---------------------|------------------------------|-----------|--------------|--|
| G06F 9/46     | 313                         | G06F                | 9/46                         | 3130      | 5 B O 1 3    |  |
|               |                             |                     |                              | 3131      | E 5B033      |  |
|               | 3 4 0                       |                     |                              | 3 4 0 1   | 3 5B098      |  |
| 9/3           | 310                         |                     | 9/32                         | 310/      | A.           |  |
| 9/38          | 370                         |                     | 9/38 3 7 0 X                 |           |              |  |
|               |                             | 審查請求                | 未請求                          | 請求項の数5    | OL (全 8 頁)   |  |
| (21)出願番号      | 特順2001-366320(P2001-366320) | (71)出額人             | (71)出額人 000005223<br>富士通株式会社 |           |              |  |
|               |                             |                     |                              |           |              |  |
| (22)出順日       | 平成13年11月30日(2001.11.30)     | 神奈川県川崎市中原区上小田中4丁目1番 |                              |           |              |  |
|               |                             |                     | 1号                           |           |              |  |
|               |                             | (72) 発明者            | 安里 1                         | NE .      |              |  |
|               |                             |                     | 神奈川県川崎市中原区上小田中4丁目1番          |           |              |  |
|               |                             |                     | 1号 富士通株式会社内                  |           |              |  |
|               |                             | (74)代理人             | 1000775                      | 100077517 |              |  |
|               |                             |                     | 弁理士                          | 石田 敬 (夕   | <b>ト</b> 4名) |  |

Fターム(参考) 5B013 DD10

# (54) 【発明の名称】 マルチスレッド計算機

#### (57)【要約】

【課題】 並列化コンパイラで抽出された並列実行可能 な複数プログラム流を単一のプロセッサでマルチスレッ ド実行させるマルチスレッド計算機を提供する。

【解決手段】 一定数のプログラム流を同時に処理する のに必要なプログラムカウンタ及びレジスタと、パイプ ライン制御を行う制御機構と、を備えるマルチスレッド 計算機であって、該制御機構が、並列に実行可能なタス クの先頭アドレスをオペランドにて指定する第1の命令 コードに応じて、新たなスレッドを生成して実行させる 手段と、該並列に実行可能なタスクの終了を指定する第 2の命令コードに応じて、該新たなスレッドを消滅させ る手段と、を具備する。



5B033 AA13 AA14 AA15 CA02 5B098 AA02 GA05 GC14

#### 【特許請求の顧用】

【請求項1】 一定数のプログラム流を同時に処理する のに必要なプログラムカウンタ及びレジスタと、パイプ ライン制御を行う制御機構と、を備えるマルチスレッド 計算機であって、該制御機構が、

1

並列に実行可能なタスクの先頭アドレスをオペランドに て指定する第1の命令コードに応じて、新たなスレッド を生成して実行させる手段と.

該並列に実行可能なタスクの終了を指定する第2の命令 コードに応じて、該新たなスレッドを消滅させる手段

# を具備するマルチスレッド計算機。

【請求項2】 一定数のプログラム流を同時に処理する のに必要なプログラムカウンタ及びレジスタと、パイプ ライン制御を行う制御機構と、を備えるマルチスレッド 計算機であって、該制御機構が、

同一の先頭アドレスを有する並列に実行可能な複数のタ スクの該先頭アドレスと該タスクの数とをオペランドに て指定する所定の命令コードに応じて、複数の新たなス レッドを生成して実行させる手段、

#### を具備するマルチスレッド計算機。

【請求項3】 前記制御機構は、生成されたスレッドに それぞれ付加されるユニークなID番号を格納するスレ ッドIDレジスタを有し、該スレッドIDレジスタを指 定する命令コードに応じて該命令コードが属するスレッ ドに対応するスレッドIDレジスタに格納された値を読 み出す手段を更に具備する、請求項1又は請求項2に記 載のマルチスレッド計算機。

【請求項4】 前記制御機構は、計算機の状況に応じ て、命令コードに応じた新たなスレッドの生成を抑止し 30 て、シーケンシャルに命令を実行させるスレッド生成抑 止手段を更に具備する、請求項1又は請求項2に記載の マルチスレッド計算機。

【請求項5】 前記制御機構は、生成された新たなスレ ッドのうち同時実行されるべきスレッドの数を制御する スレッド数制御手段を更に具備する、請求項1 又は請求 項2に記載のマルチスレッド計算機。

#### 【発明の詳細な説明】

#### [0001]

算機に関し、より詳細には、ハードウェアリソースの稼 働効率の向上を図ったマルチスレッド計算機に関する。

#### [0002]

【従来の技術】パイプライン計算機の実行スループット を向上させる手段として、マルチスレッド方式が提案さ れ、実現されている。これは、パイプライン計算機が提 供する並列の演覧リソースを単一プログラム流が十分に 使い切ることが一般に困難である点に注目し、複数のブ ログラム流をパイプラインに同時に投入することで、い わゆる空きスロットの割合を大幅に削減することを狙っ 50 計算機の状況に応じて、命令コードに応じた新たなスレ

たものである。

【0003】一方、並列化コンパイラによってプログラ ムに存在する並列性を抽出し、マルチプロセッサで並列 実行するアプローチが従来から行われている。

【発明が解決しようとする課題】ところで、一度に並列

#### [0004]

に処理することが可能な部分の大きさのことを並列性に 関する粒度 (granularity) と呼んでいるが、小さな粒 度で並列処理しようとすると、オーバヘッドが大きくな 10 り、あまり効率を向上させることができない。従来、マ ルチスレッド計算機は、小さな粒度での並列処理を目的 とするものであり、プログラムの持つ大きな粒度の並列 性には対応していない。その一方、並列化コンパイラに

よる並列性の抽出は、大きな粒度のレベルで行われ、ハ ードウェアリソースを必ずしもきめ細かいレベルで充分 に活用しているとはいえない。 【0005】本発明は、上述した問題点に鑑み、上述し た二つの技術の融合を目指すものであり、その目的は、

並列化コンパイラで抽出された並列実行可能な複数プロ 20 グラム流を単一のプロセッサでマルチスレッド実行させ るマルチスレッド計算機を提供することにある。

# [0006]

【課題を解決するための手段】上記目的を達成するため に、本発明の第1の面によれば、一定数のプログラム流 を同時に処理するのに必要なプログラムカウンタ及びレ ジスタと、パイプライン制御を行う制御機構と、を備え るマルチスレッド計算機であって、該制御機構が、並列 に実行可能なタスクの先頭アドレスをオペランドにて指 定する第1の命令コードに応じて、新たなスレッドを生 成して実行させる手段と、該並列に実行可能なタスクの 終了を指定する第2の命令コードに応じて、該新たなス レッドを消滅させる手段と、を具備するマルチスレッド 計算機が提供される。

【0007】また、本発明の第2の面によれば、一定数 のプログラム流を同時に処理するのに必要なプログラム カウンタ及びレジスタと、パイプライン制御を行う制御 機構と、を備えるマルチスレッド計算機であって、該制 御機構が、同一の先頭アドレスを有する並列に実行可能 な複数のタスクの該先頭アドレスと該タスクの数とをオ 【発明の属する技術分野】本発明は、マルチスレッド計 40 ペランドにて指定する所定の命令コードに応じて、複数 の新たなスレッドを生成して実行させる手段、を具備す るマルチスレッド計算機が提供される。

【0008】また、本発明によれば、その制御機構は、 生成されたスレッドにそれぞれ付加されるユニークなI D番号を格納するスレッド I Dレジスタを有し、該スレ ッドIDレジスタを指定する命令コードに応じて該命令 コードが属するスレッドに対応するスレッドIDレジス タに格納された値を読み出す手段を更に具備する。

【0009】また、本発明によれば、その制御機構は、

ッドの生成を抑止して、シーケンシャルに命令を実行さ せるスレッド生成抑止手段を更に具備する。

【0010】また、本発明によれば、その制御機構は、 生成された新たなスレッドのうち同時実行されるべきス レッドの数を制御するスレッド数制御手段を更に具備す

# [0011]

【発明の宝飾の形態】以下、添付図面を参照して本発明 の実施形態について説明する。

【0012】図1は、一般的なマルチスレッド計算機の 10 動作を説明するためのプロック図である。同図におい て、12は命令キャッシュ、14a~14dはそれぞれ プログラムカウンタ、16はパイプライン、18a~1 8 d はそれぞれレジスタファイル、20は制御機構であ る。プログラムカウンタおよびレジスタファイルは複数 存在し、その個数はプロセッサ(計算機)がハードウェ ア的にサポートする同時実行可能なスレッド数の上限値 である。

【0013】実行中の各スレッドは、14a~14d中 の該当するプログラムカウンタの示すアドレスを用いて 命令キャッシュ12からフェッチされ、パイプライン1 6に投入される。命令実行中にアクセスされるレジスタ ファイルは、18a~18d中のいずれかから選択され て用いられる。このようなマルチスレッドプロセッサの 構造は公知であり、本発明もそれを前提とするものであ る。

【0014】図2は、並列化コンパイラによって抽出さ れたプログラムの構造の例を示す図である。同図の例で は、当初、タスクAのみが実行されており、その後、並 後は一本に合流してタスクCとなる。

【0015】本発明の一実施形態においては、図2のタ スクAの最後にthread fork命令を置くことで、タスク B1~B4をマルチスレッド実行する枠組みが提供され る。かかるthread fork命令は、図3に示されるよう に、タスク開始アドレスをオペランドとして持つ。

【0016】 このthread fork命令が実行されると、指 定されたアドレスを先頭とするプログラム流が新たなス レッドとして定義され、公知の実行方式に従ってマルチ スレッド実行される。図2に対応する図3の例では、並 40 列化コンパイラによって、タスクAの最後にタスクB1 B 4 に対応する 4 個のthread fork命令が置かれるこ とになる。

【0017】また、スレッドの終わりを表すthread ter minate命令も用意され、この命令が実行されると公知の 方式に従ってスレッドが消滅する。すなわち、並列化コ ンパイラによって、図4に示されるように、タスクB1 の最後にはthread\_terminate命令が置かれることにな る。タスクB2~B4に関しても同様である。

がある。図5はプログラムの流れとしては図2と同じで あるが、プログラムがループ構造をとっており、タスク B1~B4が命令コード内の同一部分に位置する点が特 殊である。本発明の一実施形態においては、この例に対 応して、multi thread fork命令が用意される。

【0019】このmulti thread fork命令は、スレッド 開始アドレスと、生成されるべきスレッドの数とをオペ ランドとして持つ。すなわち、図5の例の場合、並列化 コンパイラによって、図6に示されるように、タスクA

の命令列の最後にmulti thread fork命令が置かれ、そ のオペランドにはタスクB1の開始アドレスとスレッド 数4とが指定される。かくして、図5のタスクB1~B 4 をマルチスレッド実行させることが可能になる。 【0020】なお、図5において、変数 [は、ループの 繰り返し回数を意味するインデクス変数として用いら れ、例えば、タスクB1で参照された場合には"1"の 値、タスクB2で参照された場合には"2"の値とな る。すなわち、これらのタスクが並列に実行される場 合、同じ変数であっても異なる値が読み出される必要が あり、何らかの対処が必要となる。本発明の一実施形態

においては、スレッドIDレジスタによってこの問題が 解決される。 【0021】図7は、かかるスレッドIDレジスタがソ ースオペランドに指定された場合の動作を示すものであ る。同図において、22はスレッド制御部、24a~2

4 dはそれぞれスレッドIDレジスタ、26は命令コー ド、28はデコーダ、30はセレクタであり、これらの 要素は図1の制御機構20に含まれる。 【0022】スレッド制御部22は、マルチスレッドプ

列実行可能な複数のタスクB1~B4に制御が移り、最30 ロセッサが一般的に有しているもので、並列実行中の複 数のスレッドIDを格納するレジスタ群24a~24d を内部に備えている。

【0023】図7に示されるように、デコーダ28が出 力する信号40によってスレッドIDレジスタ群24a ~24dの中から1個のレジスタが選択され、それに格 納された値が読み出されて、常に信号42として出力さ れている。この什組みによってデコーダ28がデコード している命令のスレッド I Dを信号 4 2 の値として得る ことが可能になっている。

【0024】セレクタ30は、複数のソースオペランド 候補から、命令コードで指定される適切なものを選択す るもので、その選択はセレクト信号44の値で決定され る。選択肢としては、通常のソースオペランド群46に 加えて信号42で与えられるスレッドIDがあり、それ らの中から選ばれた値が信号48として出力される。

【0025】 スレッド I Dレジスタをソースオペランド に持つ命令コード26が与えられると、デコーダ28が それを解釈し、セレクタ30が信号42を選ぶような値 をセレクト信号44として設定する。これによって、命 【0018】図2の構造の特殊な場合として、図5の例 50 令が属するスレッドのIDをソースオペランド値として

読み出すことができる。

【0026】このように、スレッド I D レジスタが命令 のオペランドとして指定されると、各スレッドにユニー クな番号(スレッドID)が読み出されるので、これを 利用して、例えば、図8に示されるように、変数Ⅰ(図 にアクセスすれば、正しい値を参照することができ る。なお、図8中、< r 0>はベースアドレスを与える レジスタr Oの内容、<ID>はスレッドIDレジスタ の内容をそれぞれ示す。

ンパイラによって並列に実行可能なタスクが抽出された が、本来はシーケンシャルなプログラムであり、並列実 行しなくても正しく動作するものである。一方、マルチ スレッドプロセッサは、動作状況によって最適な同時実 行スレッド数が変化するのが一般的であり、システム全 体の実効性能を高めるためには、スレッド数を適切に管 理制御することが必須である。

【0028】この点に鑑みて、本発明では、並列実行す るスレッド数を制限すべく制御する枠組みが提供され る。その一つは、thread fork命令が実行されても、ハ ードウェア(すなわち制御機構20)が自動的にプロセ ッサ (計算機) の稼動状況から、新たにスレッド生成す ることの得失を判断し、損失が大きいと判断した場合に はスレッド牛成を行わないようにするものである。上記 のようにプログラム自体は並列実行しなくても正しく動 作するので、このような制御を行っても問題はない。

【0029】また、もう一つは、この判断をハードウェ アが自動的に行うのではなく、オペレーティングシステ ム等のソフトウェアが制御する手段を与えるものであ る。例えば、図9に示されるように、ソフトウェアによ 30 る設定が可能なスレッド生成抑止レジスタを用意し、オ ペレーティングシステムがスレッド生成を抑制すべきと 判断した場合にこのレジスタをONにセットすることで 同様の効果を得ることができる。

【0030】本発明によれば一般に複数のスレッドが同 時に牛成されることになる。図2や図5の例ではその数 は4個である。しかし、前述のように、同時実行によっ て最大の効果が得られるスレッド数は、プログラムの件 質やシステム全体の稼動状況に依存して変化する。そこ すべきかを決定する手段を用意する。

【0031】図10は、ハードウェアが、状況に応じ て、同時実行するスレッド数を自動的に決定し制御する 機構を説明する図である。同図において、22はスレッ ド制御部、12は命令キャッシュ、50は命令実行部、 52はモニタ部、54はスレッド数指定レジスタであ

【0032】命令キャッシュ12の中には実行可能なス レッドの命令が複数存在し、その中からスレッド数指定 レジスタ54で指定された数のスレッドが選択されて並 50 ケンシャルに命令を実行させるものである。付記4に記

列実行される。モニタ部52は、命令実行部50の状況 (演算リソースの使用状況など)を適宜モニタリングし ながら、適切なスレッド数を決定し、信号56を介して そのスレッド数をスレッド数指定レジスタ54に設定す

【0033】図11は、図10におけるスレッド数指定

レジスタ54の設定をソフトウェアが実行することがで きるようにした構成を示す図である。図11に示される 構成は、図10に示されるものに信号58が加えられた 【0027】ところで、図2や図5のプログラムではコ 10 ものとなっている。コンパイラ等の解析により、適切な 並列実行スレッド数が分かる場合には、図10のような ハードウェア機能によらず、ソフトウェアによって信号 58を介してスレッド数指定レジスタ54を設定する。 【0034】以上、本発明を特にその好ましい実施の形 態を参照して詳細に説明した。本発明の容易な理解のた

> 【0035】(付記1) 一定数のプログラム流を同時 に処理するのに必要なプログラムカウンタ及びレジスタ と、パイプライン制御を行う制御機構と、を備えるマル

め、本発明の具体的な形態を以下に付記する。

20 チスレッド計算機であって、該制御機構が、並列に実行 可能なタスクの先頭アドレスをオペランドにて指定する 第1の命令コードに応じて、新たなスレッドを生成して 実行させる手段と、該前列に実行可能なタスクの終了を 指定する第2の命令コードに応じて、該新たなスレッド を消滅させる手段と、を具備するマルチスレッド計算 機、

【0036】(付記2) 一定数のプログラム流を同時 に処理するのに必要なプログラムカウンタ及びレジスタ と、パイプライン制御を行う制御機構と、を備えるマル チスレッド計算機であって、該制御機構が、同一の先頭 アドレスを有する並列に実行可能な複数のタスクの該先 頭アドレスと該タスクの数とをオペランドにて指定する 所定の命令コードに応じて、複数の新たなスレッドを生 成して実行させる手段、を具備するマルチスレッド計算

【0037】(付記3) 前記制御機様は、牛成された スレッドにそれぞれ付加されるユニークなID番号を格 納するスレッドIDレジスタを有し、該スレッドIDレ ジスタを指定する命令コードに応じて該命令コードが属 で、同時に生成されたスレッド群のうち何個を同時実行 40 するスレッドに対応するスレッドIDレジスタに格納さ れた値を読み出す手段を更に具備する、付記1又は付記

2に記載のマルチスレッド計算機。

【0038】(付記4) 前記制御機構は、計算機の状 況に応じて、命令コードに応じた新たなスレッドの生成 を抑止して、シーケンシャルに命令を実行させるスレッ ド生成抑止手段を更に具備する、付記1又は付記2に記 載のマルチスレッド計算機。

【0039】(付記5) 前記スレッド生成抑止手段 は、自動的に計算機の状況を監視した結果として、シー 載のマルチスレッド計算機。

【0040】(付記6) 前記スレッド生成抑止手段 は、計算機の状況を監視するソフトウェアの指示を受け て、シーケンシャルに命令を実行させるものである、付 記4に記載のマルチスレッド計算機。

【0041】(付記7) 前記制御機構は、生成された 新たなスレッドのうち同時実行されるべきスレッドの数 を制御するスレッド数制御手段を更に旦備する。付記1 マは付記2に記載のマルチスレッド計算機。<br/>

【0042】(付記8) 前記スレッド数制御手段は、 自動的に計算機の状況を監視した結果として、同時実行 されるべきスレッドの数を制御するものである、付記7 に記載のマルチスレッド計算機

【0043】(付記9) 前記スレッド数制御手段は、 計算機の状況を監視するソフトウェアの指示を受けて、 同時実行されるべきスレッドの数を制御するものであ る、付記7に記載のマルチスレッド計算機。

## [0044]

【発明の効果】以上説明したように、本発明によれば、 並列化コンパイラで抽出された並列実行可能な複数プロ 20 14a~14d…プログラムカウンタ グラム流を単一のプロセッサでマルチスレッド実行させ るマルチスレッド計算機が提供され、パイプライン制御 を行うハードウェアリソースの稼働効率が更に向上せ1. められる。

【図面の簡単な説明】

【図1】一般的なマルチスレッド計算機の動作を説明す るためのブロック図である。

【図2】並列化コンパイラによって抽出されるプログラ ムの構造の例を示す図である。

【図3】命令列の終わりに配置されたthread fork命令 を示す図である。

\*【図4】命令列の終わりに配置されたthread terminate 命令を示す図である。

【図5】前列化コンパイラによって抽出されるプログラ ム構造の他の例を示す図である。

【図6】命令列の終わりに配置されたmulti thread for

k命令を示す図である。 【図7】 スレッド I D レジスタがソースオペランドに指

定された場合の動作を示す図である。 【図8】インデクス変数へのアクセスを示す図である。

10 【図9】スレッド生成抑止レジスタについて説明するた

めの図である。 【図10】ハードウェアが、状況に応じて、同時実行す

るスレッド数を自動的に決定し制御する機構を説明する 図である。 【図11】ソフトウェアが、状況に応じて、同時実行す

るスレッド数を自動的に決定し制御する機構を説明する 図である。

## 【符号の説明】

12…命令キャッシュ

16…パイプライン

18a~18d…レジスタファイル

22…スレッド制御部

24a~24d…スレッドIDレジスタ

26…命令コード

28…デコーダ

30…セレクタ

50…命令実行部

52…モニタ部 30 5 4 … スレッド教指定レジスタ

[図2] 【図3】







【図4】



【図5】



【図6】



# [図7]



# [図8]





